同样是肿瘤课题,为什么他们那么快发了高分文章?
人基因组中存在多种形式的变异,包括单碱基多态性(SNP)、小的插入缺失(InDel)和结构变异(SV)。体细胞发生结构变异可能会引发肿瘤相关基因表达,从而细胞周期延长且生长不受控制,就形成了人们熟知的肿瘤。病毒整合进宿主基因组序列是结构变异的一种,会引起相关基因的不稳定、正常细胞转变成肿瘤细胞。在全基因组范围内检测癌症SV和病毒整合位点,有助于确定肿瘤发生发展的机制。
图1 致癌病毒图
日前,华大基因与湖南大学等研究人员共同开发了一款肿瘤基因组分析工具——seeksv,文章发表在期刊Bioinformatics上(点击页面下方“阅读原文”可查看)。这款分析工具可以有效地检测体细胞的结构变异(SV)和病毒整合事件。这款工具主要有如下几个亮点:
1)可以检测的突变类型包括:缺失、插入、倒置,以及单碱基分辨度的染色体间的转移。
2)可以适应单端测序数据或双端测序数据。
3)优化了一个模型,即使结构变异的断点落在序列同源区也可以检测。
通过千人基因组项目的模拟数据和食管鳞状细胞癌的真实数据检验,与其他几款类似的软件(DELLY、CREST、PRISM)相比,均发现seeksv具有更高的效率和准确度。DELLY和PRISM主要是关注germline SV的检测;而seeksv和CREST专为检测somatic SV而生。用探针捕获HBV整合位点进行验证,发现用seeksv检测到病毒整合位点准确率高达90%以上。
目前SV检测的方法可分为四类:覆盖深度(DOC),双端匹配(PEM),剪切reads(SR)和基于组装的方法(AS)。所有这些方法都具有局限性,不能检测复杂的结构变异。
1)DOC的方法原理在于,假设reads与参考基因组一致,在基因组上的分布符合泊松分布,代表工具是MOPS (Klambauer et al., 2012)。这种方法比较适合检测CNV,比如拷贝数重复或者缺失。
2)PEM的方法原理在于,根据两个信号——双端reads的距离和方向,代表工具是InGAP-sv (Qi and Zhao, 2011)。这种方法的优点是可以检测到较大的插入片段,且对于复杂的SV检测假阳性更低,但缺点是检测CNV不够准确。
3)SR的方法原理在于双端测序reads,read 1可以唯一比对到参考序列,而read 2不能,代表工具是Sprites (Zhang, et al., 2016)。这个方法主要是检测病毒整合位点,且可以达到单碱基分辨度。
4)AS的方法理论上是能够检测所有类型的变异,但是该方法只适合做基因组简单的物种变异检测,且传统的de novo组装方法并不是做变异检测的。
综上所述,上述几种方法都不够完善,都互为补充。
A.基于模拟数据比较
使用hg19的11号染色体数据进行模拟测试,分析3种SV:插入、缺失、倒置。如下图数据显示,无论是检测germline SV,还是检测somatic SV,seeksv在真阳性率(TPR)和准确度(precision)等指标方面都有不错的表现。
图2 四种工具检测肿瘤基因组种系和体细胞SV的真阳性率(TPR)和准确率(P)
表格的数字分别表示真阳性率(TPR)和准确率(P)。
B.基于千人基因组项目的数据评估
从千人基因组项目下载了4个样品的数据(NA19240, NA19238, NA19239和NA12878),每个样品只有4X的数据。下图只展示1-22号染色体>50bp的缺失,seeksv与DELLY比较的结果见下图。
图2 四个样品两种方法检测的独有DEL和共有DEL
蓝色区域是基准的SV结果,绿色区域是seeksv的检测结果,黄色区域是DELLY的检测结果,紫罗兰色过滤后的DELLY检测结果。
C.基于肿瘤样品评估
选取了5对食管鳞状细胞癌(ESCC)全基因组测序数据,每个样品40X测序量。Seeksv一共鉴定到847个SV,包括178个缺失(DEL)、122个插入(INS)、114个倒置(INV)和433个染色体内易位(CTX)。食管鳞状细胞癌(ESCC)已经被多个研究团队研究过,所以是比较好的验证工具有效性的材料。Seeksv在这5个样品中检测到的很多SV都是已知的,跟ESCC相关的基因,比如CDKN2A、TP53、RB1和一些最新发表的 ESCC相关基因(包括MACROD2、FHIT和PARK2),结果与前人的结果有很多overlap,说明Seeksv的检测是有效的。
D.乙肝病毒整合数据的评估
同样选取了5个样品,两个捕获平台(HBV捕获探针分别来自MyGenostics和BGI)做平行试验,然后使用seeksv检测HBV断点。检测结果见表1。
表1 HBV整合检测结果
因为检测到的BGI探针捕获的unique断点更多,猜想可能是平台探针设计的问题,所以再次做实验验证两家探针捕获的有效性。其后选取了20个BGI平台检测的断点和18个MG公司检测的断点,其中14个断点是共有的。验证结果见表2。实验证明BGI的HBV捕获探针验证率更高。
表2 两种探针的验证结果
以上实验说明seeksv可以检测到更多唯一的断点,且这些唯一的断点经验证是准确的,所以说seeksv有很高的准确性。
目前华大基因的人全基因组重测序产品的标准分析流程,可以使用seeksv工具,欢迎广大客户来体验。
如果您对肿瘤基因组分析工具seeksv有任何疑问,欢迎留言给科技君,或咨询当地科技代表,当然也可以通过如下方式联系我们:
电话:400-706-6615
邮箱:info@bgitechsolutions.com
网站:www.bgitechsolutions.com
地址:深圳市盐田区洪安三街21号华大综合园7栋,518083
*最终解释权归深圳华大基因股份有限公司所有。
参考文献:
Ying Liang,Kunlong Qiu, et al.(2016) seeksv: an accurate tool for somatic structural variation and virus integration detection. Bioinformatics.
撰稿:徐晓玲
编辑:市场部
猜你喜欢
NGS十年发展史,看这篇就够了 | Nature综述解读(上)
除了NGS,你还应该知道这4种技术| Nature综述解读(下)
请继续关注“BGI华大科技”公众号,
科技君将一如既往地为你提供精彩内容!
如有相关问题,欢迎后台留言~~
▼
关注华大科技,尽享精彩科研!